[Day1] NLP vs LLM：傳統任務與新時代的交會

17th鐵人賽

ruiyang0630

團隊nutc imac

2025-09-15 23:56:10

131 瀏覽

分享至

自然語言處理 (NLP) 簡介

　　自然語言處理（Natural Language Processing, NLP） 是人工智慧的重要分支，他的目標是能讓電腦「看懂」人類的語言，做出相對應的處理。

生活中常見的 NLP 應用：

搜尋引擎
Siri 語音助理
垃圾郵件篩選
拼字檢查

這些日常應用背後都離不開 NLP 的基礎。

NLP 的簡單範例

在傳統 NLP 裡，每一種任務幾乎都需要一套專屬模型或演算法：

中文分詞

import jieba


jieba.add_word("iThome")
jieba.add_word("鐵人賽")

sentence = "我愛2025iThome鐵人賽"
print(list(jieba.cut(sentence)))

輸出結果

['我', '愛', '2025', 'iThome', '鐵人賽']

文本分類（新聞分類、垃圾郵件分類）

import jieba
from sklearn.feature_extraction.text import CountVectorizer


# 定義語料
corpus = [
    "我愛2025iThome鐵人賽",
    "垃圾郵件不要點！",
    "NLP是LLM的基礎",
]

# 用 jieba 分詞
def jieba_tokenizer(text):
    return list(jieba.cut(text))

# 建立向量化器，指定用 jieba 分詞
vectorizer = CountVectorizer(tokenizer=jieba_tokenizer)

# 轉換
X = vectorizer.fit_transform(corpus)

print("特徵名稱：", vectorizer.get_feature_names_out())
print("向量化結果：\n", X.toarray())

輸出結果

特徵名稱： ['2025ithome' 'llm' 'nlp' '不要' '垃圾' '基礎' '愛' '我' '是' '的' '郵件' '鐵人賽' '點' '！']
向量化結果：
 [[1 0 0 0 0 0 1 1 0 0 0 1 0 0]
 [0 0 0 1 1 0 0 0 0 0 1 0 1 1]
 [0 1 1 0 0 1 0 0 1 1 0 0 0 0]]

與 LLM 的關聯在哪呢?

　　傳統 NLP 的最大特徵是「一個功能一個模型」：分詞有分詞模型、分類有分類器、翻譯有翻譯模型，這代表開發人員必須針對每個任務設計不同的邏輯架構。
　　但是現今的大型語言模型（LLM）打破了這個限制，只需透過「一個模型」加上「Prompt」，同時就能完成分詞、分類、翻譯甚至更複雜的問答。